对图像分类器的最新基于模型的攻击压倒性地集中在单对象(即单个主体对象)图像上。与此类设置不同,我们解决了一个更实用的问题,即使用多对象(即多个主导对象)图像生成对抗性扰动,因为它们代表了大多数真实世界场景。我们的目标是设计一种攻击策略,该策略可以通过利用此类图像中固有的本地贴片差异来从此类自然场景中学习(例如,对象上的局部贴片在“人”上的局部贴片与在交通场景中的对象`自行车'之间的差异)。我们的关键想法是:为了误解对抗性的多对象图像,图像中的每个本地贴片都会使受害者分类器感到困惑。基于此,我们提出了一种新颖的生成攻击(称为局部斑块差异或LPD攻击),其中新颖的对比损失函数使用上述多对象场景特征空间的局部差异来优化扰动生成器。通过各种受害者卷积神经网络的各种实验,我们表明我们的方法在不同的白色盒子和黑色盒子设置下进行评估时,我们的方法优于基线生成攻击,具有高度可转移的扰动。
translated by 谷歌翻译
多文件科学摘要(MDSS)旨在为与主题相关的科学论文群生成连贯和简洁的摘要。此任务需要精确理解纸张内容以及对交叉纸关系的准确建模。知识图为文档传达了紧凑且可解释的结构化信息,这使其非常适合内容建模和关系建模。在本文中,我们提出了KGSUM,这是一个MDSS模型,以编码和解码过程中的知识图为中心。具体而言,在编码过程中,提出了两个基于图的模块,以将知识图信息纳入纸张编码,而在解码过程中,我们通过以描述性句子的形式首先生成摘要的知识图,提出了一个两阶段解码器。 ,然后生成最终摘要。经验结果表明,所提出的体系结构对多XSCIENCE数据集的基准进行了实质性改进。
translated by 谷歌翻译
已经进行了一项详尽的研究,以研究基于跨度的联合实体和关系提取任务的模型。但是,这些模型在模型训练过程中采样了大量的负实体和负关系,这是必不可少的,但导致数据分布严重不平衡,进而导致次优模型性能。为了解决上述问题,我们为基于跨度的联合实体和关系提取提出了两个阶段范式,其中涉及在第一阶段对实体和关系进行分类,并预测第二阶段的这些实体和关系的类型阶段。两阶段范式使我们的模型能够显着缩小数据分布差距,包括负实体与其他实体之间的差距,以及负面关系与其他关系之间的差距。此外,我们首次尝试将实体类型和实体距离与全球特征相结合,这已被证明有效,尤其是对于关系提取而言。几个数据集的实验结果表明,基于两阶段范式的基于跨度的联合提取模型增强,全局功能始终优于先前用于联合提取任务的基于最新的跨度模型,并建立了新的标准基准。定性和定量分析进一步验证了提出的范式和全球特征的有效性。
translated by 谷歌翻译
文本对抗攻击暴露了文本分类器的漏洞,可用于改善其稳健性。现有的上下文感知方法仅考虑黄金标签的概率,并在搜索攻击路径时使用贪婪的搜索,通常会限制攻击效率。为了解决这些问题,我们提出了PDB,这是一种使用概率差的引导光束搜索的上下文感知的文本对抗攻击模型。概率差异是所有类标签概率的总体考虑,PDB使用它来指导攻击路径的选择。此外,PDBS使用Beam搜索找到成功的攻击路径,从而避免搜索空间有限。广泛的实验和人类评估表明,PDB在一系列评估指标中的表现优于以前的最佳模型,尤其是提高 +19.5%的攻击成功率。消融研究和定性分析进一步证实了PDB的效率。
translated by 谷歌翻译
几个名称的实体识别(NER)使我们能够使用很少的标记示例为新域构建一个NER系统。但是,该任务的现有原型网络具有大致估计的标签依赖性和紧密分布的原型,因此经常导致错误分类。为了解决上述问题,我们提出了EP-NET,这是一个实体级原型网络,通过分散分布的原型增强。EP-NET构建实体级原型,并认为文本跨度为候选实体,因此它不再需要标签依赖性。此外,EP-NET从头开始训练原型,以分散分配它们,并使用空间投影将跨度与嵌入空间中的原型对齐。两项评估任务和少量网络设置的实验结果表明,EP-NET在整体性能方面始终优于先前的强大模型。广泛的分析进一步验证了EP-NET的有效性。
translated by 谷歌翻译
文本摘要模型通常经过培训,以产生满足人类质量要求的摘要。但是,现有的摘要文本评估指标只是摘要质量的粗略代理,与人类评分和抑制摘要多样性的相关性低。为了解决这些问题,我们提出了SummScore,这是基于CrossCoder的摘要质量评估的综合指标。首先,通过采用原始的苏格拉外测量模式并比较原始文本的语义,SummScore摆脱了抑制摘要多样性的抑制。借助文本匹配的预训练交叉编码器,SummScore可以有效地捕获摘要语义之间的细微差异。其次,为了提高全面性和解释性,SummScore由四个细粒子模型组成,它们分别测量连贯性,一致性,流利性和相关性。我们使用半监督的多轮训练来提高模型在极有限的注释数据上的性能。广泛的实验表明,与人类评分相关的上述四个维度中,SummScore在上述四个维度中的现有评估指标显着优于现有的评估指标。我们还为16个主流摘要模型提供了SummScore的质量评估结果,以供以后研究。
translated by 谷歌翻译
文档检索使用户能够准确,快速找到所需的文档。为了满足检索效率的要求,普遍的深神经方法采用了基于表示的匹配范式,该范式通过离线预先存储文档表示节省了在线匹配时间。但是,上述范式会消耗庞大的本地存储空间,尤其是将文档存储为单词元素表示时。为了解决这个问题,我们提出了TGTR,这是一种基于主题的文本表示模型,用于文档检索。遵循基于表示的匹配范式,TGTR将文档表示脱机存储以确保检索效率,而通过使用新颖的主题格式表示,而不是传统的单词元素,则大大降低了存储要求。实验结果表明,与单词粒度的基线相比,TGTR在检索准确性方面始终在TREC CAR和MS MARCO上竞争,但其所需的存储空间的少于1/10。此外,TGTR绝大多数在检索准确性方面超过了全球粒度的基线。
translated by 谷歌翻译
对于指定的实体识别(NER),基于序列标签和基于跨度的范例大不相同。先前的研究表明,这两个范式具有明显的互补优势,但是据我们所知,很少有模型试图在单个NER模型中利用这些优势。在我们以前的工作中,我们提出了一种称为捆绑学习(BL)的范式来解决上述问题。 BL范式将两个NER范式捆绑在一起,从而使NER模型通过加权总结每个范式的训练损失来共同调整其参数。但是,三个关键问题仍未解决:BL何时起作用? BL为什么工作? BL可以增强现有的最新(SOTA)NER模型吗?为了解决前两个问题,我们实施了三个NER模型,涉及一个基于序列标签的模型-Seqner,Seqner,一个基于跨度的NER模型 - 机器人,以及将Seqner和Spanner捆绑在一起的BL-NER。我们根据来自五个域的11个NER数据集的实验结果得出两个关于这两个问题的结论。然后,我们将BL应用于现有的五个SOTA NER模型,以研究第三期,包括三个基于序列标签的模型和两个基于SPAN的模型。实验结果表明,BL始终提高其性能,表明可以通过将BL纳入当前的SOTA系统来构建新的SOTA NER系统。此外,我们发现BL降低了实体边界和类型预测错误。此外,我们比较了两种常用的标签标签方法以及三种类型的跨度语义表示。
translated by 谷歌翻译
近年来,图像分类器的BlackBox传输攻击已被广泛研究。相比之下,对对象探测器的转移攻击取得了很小的进展。对象探测器采用图像的整体视图,并检测一个对象(或缺乏)通常取决于场景中的其他对象。这使得这种探测器本质上的上下文感知和对抗的攻击比目标图像分类器更具挑战性。在本文中,我们提出了一种新的方法来为对象检测器生成上下文感知攻击。我们表明,通过使用对象及其相关位置的共同发生和尺寸作为上下文信息,我们可以成功地生成目标的错误分类攻击,该攻击比最先进的Blackbox对象探测器上实现更高的转移成功率。我们在帕斯卡VOC和MS Coco Datasets的各种对象探测器上测试我们的方法,与其他最先进的方法相比,性能提高了高达20美元的百分点。
translated by 谷歌翻译
基于跨度的关节提取同时进行文本跨度的指定实体识别(NER)和关系提取(RE)。最近的研究表明,令牌标签可以传达至关重要的任务特定信息并丰富令牌语义。但是,据我们所知,由于完全戒除序列标记机制,所有先前基于跨度的工作都无法使用令牌标签的形式。为了解决此问题,我们置于基于跨度的跨度网络(STSN)的序列序列标记,这是一个基于跨度的关节外推网络,该网络通过基于序列标记的NER得出的令牌生物标签信息增强。通过深入堆叠多个Atten-tion层,我们设计了一个深度的Neu-ral架构来构建STSN,每个阶层层都由三个基本注意力单元组成。深度神经体系结构首先学习了代币标签和基于SPAN的关节提取的Seman-TIC表示,然后在它们之间构建了形式的相互作用,这也实现了基于SPAN的NER和RE之间的双向信息相互关系。向热 - 我们扩展了生物标记方案,以使STSN可以提取重叠的联系。三个基准数据集的实验表明,我们的模型始终优于先前的最佳模型,从而创造了新的最新结果。
translated by 谷歌翻译